"""
数据清洗配置文件
此文件包含数据清洗时使用的各种配置列表
"""

# 常见品牌列表（示例数据，实际使用时可以扩充）
BRANDS = [
    # 食品饮料品牌
    '伊利', '蒙牛', '光明', '雀巢', '娃哈哈', '康师傅', '统一', '农夫山泉',
    '三只松鼠', '良品铺子', '百草味', '周黑鸭', '双汇', '思念', '元气森林',
    
    # 日用品品牌
    '宝洁', '联合利华', '蓝月亮', '立白', '汰渍', '舒肤佳', '海飞丝', 
    '飘柔', '佳洁士', '高露洁', '清扬',
    
    # 电子产品品牌
    '苹果', '华为', '小米', '三星', 'OPPO', 'VIVO', '联想', '戴尔', '惠普',
    '索尼', '飞利浦', '松下', 'TCL', '海尔', '美的', '方太', '格力',
    
    # 服装品牌
    '耐克', '阿迪达斯', '李宁', '安踏', '优衣库', '海澜之家', '森马', 
    '真维斯', '特步', '匡威', '班尼路',
    
    # 化妆品品牌
    '欧莱雅', '兰蔻', '雅诗兰黛', '资生堂', '玉兰油', '自然堂', '百雀羚', 
    '珀莱雅', '薇诺娜', '完美日记', '花西子'
]

# 常见单位列表
UNITS = [
    # 数量单位
    '个', '只', '条', '片', '块', '张', '件', '双', '套', '对', '组', '盒', 
    '包', '袋', '箱', '瓶', '罐', '听', '桶', '支',
    
    # 重量单位
    '克', 'g', 'kg', '千克', '公斤', '斤', '两', '吨', 't', 'mg', '毫克',
    
    # 长度单位
    '米', 'm', 'cm', '厘米', 'mm', '毫米', '英寸', '英尺',
    
    # 体积单位
    '升', 'L', 'l', '毫升', 'ml', '立方米', '立方厘米'
]

# 需要去除的营销词语
REMOVE_WORDS = [
    # 促销词
    '特价', '促销', '限时', '打折', '秒杀', '折扣', '优惠', '满减',
    '包邮', '限购', '爆款', 'VIP专享', '新品',
    
    # 描述词
    '热销', '畅销', '精选', '正品', '热卖', '超值', '实惠', '经典',
    '人气', '爆红', '网红', '明星同款', '大牌',
    
    # 时间词
    '春季', '夏季', '秋季', '冬季', '节日', '限定', '新款', '当季',
    '预售', '预约', '首发'
]

# 规格匹配模式
# 可以根据实际需要调整正则表达式
SPECIFICATION_PATTERN = r'\d+\.?\d*\s*(?:{units})'

# 品牌匹配的语言范围
# Chinese characters range for brand recognition
BRAND_CHAR_RANGE = r'[\u4e00-\u9fa5]' 